基於貝氏定理自動分析語料庫與標定文步 (A Bayesian approach to determine move tags in corpus) [In Chinese]
نویسندگان
چکیده
English of Academic Writing (EAW) is essential to the research community for sharing knowledge. Research documents using EAW, especially the abstract and introduction, may *此研究由科技部資助,編號為:MOST-103-2511-S-007-002-MY3 1通訊作者:徐嘉連 Jia-Lien Hsu (E-mail: [email protected]) The 2015 Conference on Computational Linguistics and Speech Processing ROCLING 2015, pp. 87-99 The Association for Computational Linguistics and Chinese Language Processing
منابع مشابه
利用聲學與文脈分析於多語語音辨識單元之產生 (Generation of Phonetic Units for Multilingual Speech Recognition Based on Acoustic and Contextual Analysis) [In Chinese]
摘要 由於全球化趨勢之盛行,多語語音常出現於會議紀錄及一般對話等方面。對於會議紀錄及對話系統而 言,多語語音自動辨識日顯重要。在多語語音自動辨識中,辨識單元集之定義及選取,將影響辨識之效率 及效能。本論文針對中英文利用 IPA 定義之多語語音辨識單元集,考慮前後文相關之三連音模型,並進一 步透過對聲學相似度與前後文脈分析,決定一組精簡有效的多語辨識單元。在相似度矩陣分析中,首先我 們利用事後機率統計,建立聲學相似度矩陣,然後,基於發音共聲現象的考量,分析語音發音上之相似度。 本論文更引入語言超空間相似度之觀念,計算三連音辨識單元前後文脈之關係,建立語言超空間相似度矩 陣。最後利用資料融合技術,合併聲學相似度矩陣和語言超空間相似度矩陣,以計算三連音辨識單元間之 距離,而後利用向量量化群集方法合併相似性高之三連音辨識單元,建立一個有效的多語語音辨識單元 集。本論文以 EAT 中英雙語語料...
متن کامل漢語動詞辭彙語義分析:表達模式與研究方法 (A Lexical-Semantic Analysis of Mandarin Chinese Verbs: Representation and Methodology)
在這篇文章中我們將簡單扼要地介紹詞庫小組分析動詞語意的作法,包含了理 論部分以及分析的方法和步驟。這套理論架構是從實際分析的過程中逐漸形成 的,但尚未完全成熟。截至目前為止,我們已經分析了四十多組近義動詞和近 十組動詞語意場,並初步架構了一套由語意屬性組成的動詞語意表達模式。這 套理論和分析方法是建立在詞庫小組十幾年的研究基礎上,結合了眾人的力量 逐步完成的。 本文嘗試統合眾人的研究所得,設法銜接理論與語言事實,並詳細介紹我 們的研究方法。關於理論部分,詞庫小組已發表了許多篇論文。早期架構請參 考 Tsai 等人[1998]、Huang 等人[1998],最近的架構請參考 Huang 等人[見本期 刊]。這些論文側重理論架構在學理上的探討,對語言事實涉及較少。本文則 採用較多的語料,設法將理論落實。此外,詞庫小組也發表多篇論文探討了幾 個特定近義詞組或語意場,像是 Chang 等人[...
متن کاملAutomatic labeling of troponymy for Chinese verbs
以同義詞集與詞彙語意關係架構而成的詞彙知識庫,如英語詞網 (Wordnet)、歐語詞 網 (EuroWordnet)等,已有充分的研究,詞網的建構也已相當完善。基於相同的目的,中 研院語言所亦已建立大規模之中文詞彙網路 (Chinese Wordnet,CWN),旨在提供完整的 中文辭彙之詞義區分。然而,在目前之中文詞彙網路系統中,由於目前主要是採用人為判 定來標記同義詞集之間的語意關係,因此這些標記之數量尚未達成可行應用之一定規模。 因此,本篇文章特別針對動詞之間的上下位詞彙語意關係 (Troponymy),提出一種自動標 記的方法。我們希望藉由句法上特定的句型 (lexical syntactic pattern),建立一個能夠自 動抽取出動詞上下位的系統。透過詞義意判定原則的評估,結果顯示,此系統自動抽取出 的動詞上位詞,正確率將近百分之七十。本研究盼能將本方法應用於正在發展中...
متن کاملDetecting Word Ordering Errors in Chinese Sentences for Learning Chinese as a Foreign Language
Automatic detection of sentence errors is an important NLP task and is valuable to assist foreign language learners. In this paper, we investigate the problem of word ordering errors in Chinese sentences and propose classifiers to detect this type of errors. Word n-gram features in Google Chinese Web 5-gram corpus and ClueWeb09 corpus, and POS features in the Chinese POStagged ClueWeb09 corpus ...
متن کامل以語料為基礎的中文語篇連貫關係自動標記 (Corpus-Based Coherence Relation Tagging in Chinese Discourse) [In Chinese]
近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (The-saurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可抵擋的趨勢。其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利用之一項詞彙語意資源。然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯頓英語詞網(Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrap-ping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實驗的結果與初步評估證明, 此法...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2015